Attention Is All You Need (2017)
from Attention mechanism
2017 1706.03762 Attention Is All You Need
The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration.
The best performing models also connect the encoder and decoder through an attention mechanism.
We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely.
CNNやRNNを使わずAttentionで構築した方が計算量が少なく、翻訳精度が高く、しかも並列計算しやすい
これまでの言語翻訳系AIの多くでも,Attentionの概念は導入されていた
入力した翻訳対象文章における各単語のAttention評価値を求めるのに,膨大で多様な文章事例から学習して求めた学習データを参照するアプローチを採用していたのだ。
これに対して当該論文では,翻訳対象の文章に含まれる単語だけに着目したAttention評価値を求める方針(Self-Attention,自己注意)の深層学習だけで,必要十分な精度の翻訳結果が得られることを示したのである。
この論文は,言語翻訳系AIに大きなブレークスルーをもたらした
Transformerモデルは,自然言語処理以外にも応用されるようになり,NVIDIAによると,直近2年のAI系論文の70%がTransformerモデルに関するものになったという
https://www.4gamer.net/games/623/G062364/20220322093/
論文を読む
https://overcast.fm/+MhOoo2Cg8
2023.02.11 絶体絶命の危機を迎えたグーグルのAI開発、遅れをとった理由 | Forbes JAPAN 公式サイト(フォーブス ジャパン) Richard Nieva
2017年に、グーグルのAI研究所の幹部らは「Attention Is All You Need」というAIに関する画期的な論文を書き、トランスフォーマーと呼ばれるテキスト解析のための新しいアーキテクチャを提案していた。この仕組みは、ChatGPTのようなジェネレーティブAIや、グーグル独自の大規模言語モデル「LaMDA」の基礎となった。
しかし現在は、この論文の共著者8人のうち、1人を除いて全員がグーグルを退社している。6人は自分の会社を設立し、1人はOpenAIに参加した。論文の著者の1人で、OpenAI のライバル企業とされる「Cohere」のCEOであるエイダン・ゴメスは「グーグルの環境は自分には過酷すぎた」と語った。
「グーグルのような巨大企業の内部では自由に研究ができない。根本的な企業構造がそれをサポートしていない。だから、外に出て自分でやるしかないんだ」と彼はフォーブスに語った。